We apply topological data analysis (TDA) to speech classification problems and to the introspection of a pretrained speech model, HuBERT. To this end, we introduce a number of topological and algebraic features derived from Transformer attention maps and embeddings. We show that a simple linear classifier built on top of such features outperforms a fine-tuned classification head. In particular, we achieve an improvement of about $9\%$ accuracy and $5\%$ ERR on four common datasets; on CREMA-D, the proposed feature set reaches a new state of the art performance with accuracy $80.155$. We also show that topological features are able to reveal functional roles of speech Transformer heads; e.g., we find the heads capable to distinguish between pairs of sample sources (natural/synthetic) or voices without any downstream fine-tuning. Our results demonstrate that TDA is a promising new approach for speech analysis, especially for tasks that require structural prediction.
translated by 谷歌翻译
我们提出了一种从一个或几种视图中重建人头的纹理3D网眼的方法。由于如此少的重建​​缺乏约束,因此需要先验知识,这很难强加于传统的3D重建算法。在这项工作中,我们依靠最近引入的3D表示$ \ unicode {x2013} $ neural隐式函数$ \ unicode {x2013} $,它基于神经网络,允许自然地从数据中学习有关人类头的先验,并且直接转换为纹理网格。也就是说,我们扩展了Neus(一种最新的神经隐式函数公式),以同时代表类的多个对象(在我们的情况下)。潜在的神经网架构旨在学习这些物体之间的共同点,并概括地看不见。我们的模型仅在一百个智能手机视频上进行培训,不需要任何扫描的3D数据。之后,该模型可以以良好的效果以几种镜头或一次性模式适合新颖的头。
translated by 谷歌翻译
不断需要在低容量设备上使用的图像超分辨率(SR)的高性能和计算有效的神经网络模型。获取此类模型的一种方法是压缩现有体系结构,例如量化。另一个选择是发现新的有效解决方案的神经体系结构搜索(NAS)。我们为专门设计的SR搜索空间提出了一种新颖的量化NAS程序。我们的方法执行NAS以找到量化友好的SR模型。搜索依赖于将量化噪声添加到参数和激活中,而不是直接量化参数。我们的Quontnas比固定体系结构的均匀或混合精度量化找到了具有更好的PSNR/BITOP权衡的体系结构。此外,我们对噪声过程的搜索比直接量化权重的速度快30%。
translated by 谷歌翻译
将训练一个问题的深度神经网络转移到另一个问题上,只需要少量数据和几乎没有额外的计算时间。对于深度学习模型的合奏,通常比单个模型优越。但是,深度神经网络的转移需要相对较高的计算费用。过度拟合的可能性也增加。我们的转移学习方法的方法包括两个步骤:(a)通过单个移位向量移动集合中所有模型的编码器的权重,以及(b)之后为每个单独的模型进行微小的微调。该策略导致了训练过程的加快,并提供了使用Shift Vector大大减少训练时间的合奏中添加模型的机会。我们通过计算时间比较不同的策略,合奏的准确性,不确定性估计和分歧,得出的结论是,与传统方法相比,我们的方法使用相同的计算复杂性提供了竞争结果。同样,我们的方法使合奏模型的多样性更高。
translated by 谷歌翻译
用于图形分类的分布外检测的问题远未解决。现有模型往往对OOD示例过高自信,或者完全忽略检测任务。在这项工作中,我们从不确定性估计的角度考虑了这个问题,并进行了几种最近提出的方法的比较。在我们的实验中,我们发现没有通用的OOD检测方法,并且重要的是考虑图表和预测分类分布。
translated by 谷歌翻译
Wasserstein生成的对抗网络(WGANS)是基于最佳运输理论(OT)和Kantorovich二元性的流行生成模型。尽管WGAN取得了成功,但仍不清楚基础双求解器的基础差如何近似OT成本(Wasserstein-1距离,$ \ Mathbb {W} _ {1} $)和更新发电机所需的OT梯度。在本文中,我们解决了这些问题。我们构建1-卢比奇的功能,并使用它们来构建射线单调传输计划。该策略在高维空间(例如图像空间)中产生了与分析已知的OT计划,OT成本和OT梯度的连续基准分布对。我们使用这些基准对彻底评估了流行的wgan双表求解器(梯度惩罚,光谱归一化,熵正则化等)。即使这些求解器在WGAN中表现良好,也没有一个忠实地计算出高维度的$ \ Mathbb {w} _ {1} $。然而,许多人提供了OT梯度的有意义的近似。这些观察结果表明,这些求解器不应被视为$ \ mathbb {w} _ {1} $的良好估计量,但在某种程度上,它们确实可以用于各种问题,需要最小化$ \ mathbb {w} _ { 1} $。
translated by 谷歌翻译
数据表示的比较是一个复杂的多个方面问题,尚未享受完整的解决方案。我们提出了一种用于比较两个数据表示的方法。我们介绍了表示拓扑分歧(RTD),测量在两点云之间的多尺度拓扑中的异常相同,在点之间的一对一的对应关系。数据点云被允许位于不同的环境空间中。RTD是少数基于TDA的实用方法之一,适用于真实机器学习数据集。实验表明,提议的RTD同意对数据表示相似性的直观评估,对其拓扑结构敏感。我们申请RTD在各种问题的计算机视觉和NLP域中获得神经网络表示的见解:培训动力学分析,数据分配转移,转移学习,集合学习,解剖学评估。
translated by 谷歌翻译
使用商品传感器捕获的深度映射通常需要在应用中使用超分辨率。在这项工作中,我们研究了一种基于与Tikhonov正规的变分问题陈述的超分辨率方法,其中规范器与深神经网络参数化。这种方法以前在光声断层扫描中成功应用。我们通过实验表明它在深度地图超级分辨率的应用很困难,并提供关于该原因的建议。
translated by 谷歌翻译
用商品传感器捕获的深度图通常具有低质量和分辨率;这些地图需要增强以在许多应用中使用。深度图超分辨率的最新数据驱动方法依赖于同一场景的低分辨率和高分辨率深度图的注册对。采集现实世界配对数据需要专门的设置。另一个替代方法是通过亚采样,添加噪声和其他人工降解方法从高分辨率地图中生成低分辨率地图,并不能完全捕获现实世界中低分辨率图像的特征。结果,对这种人造配对数据训练的监督学习方法可能在现实世界中的低分辨率输入上表现不佳。我们考虑了一种基于从未配对数据学习的深度超分辨率的方法。尽管已经提出了许多用于未配对图像到图像翻译的技术,但大多数技术无法使用深度图提供有效的孔填充或重建精确表面。我们提出了一种未配对的学习方法,用于深度超分辨率,该方法基于可学习的降解模型,增强成分和表面正常估计作为特征,以产生更准确的深度图。我们为未配对的深度SR提出了一个基准测试,并证明我们的方法的表现优于现有的未配对方法,并与配对相当。
translated by 谷歌翻译
变形AutoEncoder(VAE)是无监督学习的深度生成模型,允许将观察编码为有意义的潜在空间。当任务按顺序到达时,VAE易于灾难性忘记,并且只有当前的数据可用。我们解决了这个持续学习vaes的问题。众所周知,在非持续设置中,在潜空间上的先前分配的选择对于VAE至关重要。我们认为它也有助于避免灾难性的遗忘。我们将在每个任务之前学习聚合后部的近似值。该近似是参数化作为在可训练的伪输入中评估的编码器诱导的分布的添加剂混合物。我们使用贪婪的升压方法,并使用熵正则化来学习组件。此方法鼓励组件多样性,这是必不可少的,因为我们的目标是与最少的组件存储最少的组件。基于学习的先验,我们介绍了持续学习VAE的端到端方法,并为常用的基准(MNIST,时尚Mnist,Notmnist)和Celeba数据集提供实证研究。对于每个数据集,所提出的方法避免以全自动方式遗漏灾难性忘记。
translated by 谷歌翻译